Induction Head
Induction heads are a special type of attention heads, formed only on transformer models with more than a single layer
(ここでのAttention HeadはAttention層に複数存在するHeadの方の定義)
つまりこのときのHead↓
https://scrapbox.io/files/6702985412d519001dd173e9.png
次の単語予測を行うように学習する中で、前の単語に注意を払ったりとか、そういったことを内面化していくHeadのこと。 まさにICLなFew-Shotsを与えた動作。
発見された帰納ヘッド (induction heads: [A][B]...[A]という文脈が与えられたときに次に[B]を出力する確率を高めるような二つの注意ヘッドからなる回路)が文脈内学習 (in-context learning) に大きく貢献することを明らかにした まさにこの図がICL。Induction Headsはこれを生み出す。
https://scrapbox.io/files/6727c87c9f56688fd8bc5014.png
推論の前件と後件の情報を統合して持つトークンを見つけて,それを今の推論に利用する働きを持つもので,inductionは帰納推論の"帰納"の意味
でも"働き"と"実現される推論"のどっちを指して帰納的なのかが分からない
私たちは、帰納的頭脳がこのパターンコピー行動を実行し、文脈内学習の主な源泉となっていることを正確に示すことができました。
https://scrapbox.io/files/66de24e240828e001c8fb0d1.png
繰り返されるサブシーケンスを検出して続けるために使用されます。これは、別々のレイヤーにある2つのヘッドから構成され、一方は常に前のトークンに注目する**前のトークンヘッド**であり、もう一方は現在のトークンの以前のコピーの後に来るトークンに注目する**インダクションヘッド**です。
これがなぜ重要かを理解するために、モデルがマイケル・ジョーダンに関するニュース記事で次のトークンを予測しようとしていると仮定しましょう。"Michael" というトークンは、一般的に多くの姓に続く可能性があります。しかし、インダクションヘッドはその "Michael" の出現から、以前に出現した "Michael" の後に続くトークン、つまり "Jordan" を参照し、それが次に来ることを自信を持って予測できます。
ICLを解明するための内部状態の分析
- Few-shotsのDemonstrationを与えたときの中間層の活性値(タスクベクトル)を、"Corn"のみを入力したLLMの中間層に貼り付けると、Demonstration (Few-shots)がなくても"yellow"を答えることができる ->内部(タスクベクトル)でタスクを抽象化している
・Induction Head
- shotを繰り返して、問われているラベルの入力が近いshotのラベルをコピーする内部回路
- ICLの能力を獲得するタイミングとInduction Headが形成されるタイミングが一致
->ICLが機能する場合も、このような内部回路が形成されている
- MambaもInduction Headから発想を得ている In-context Learningとは、Few-shot学習を言語モデリング問題として扱う手法です。 具体的には、コンテキスト (プロンプト) に少数の例を示すことで、モデルが新しい例に適用すべきパターンを学習し、識別できるようにします。 In-context Learningに関する研究は、大きく分けて以下の2つのアプローチがあります。
ベイズ推論: 言語モデリングの目的をベイズ推論の観点から分析する研究。 メカニズム: "induction heads" などの概念を用いて、In-context Learningのプロセスをより詳細に説明しようとする研究。